我们在最常用的计算机视觉,自然语言和音频数据集中的10个测试集中识别标签错误,随后研究这些标签错误的可能性影响基准结果。测试集中的错误是众多和广泛的:我们估计10个数据集的至少3.3%的误差,例如标签错误包括至少6%的想象验证集。使用自信的学习算法识别推定的标签错误,然后通过众包(51%的算法上标记的候选者的51%确实错误地标记了数据集)。传统上,机器学习从业者选择基于测试准确性部署哪种模型 - 我们的调查结果在此提出谨慎行事,提出在正确标记的测试集上判断模型可能更有用,特别是对于嘈杂的现实世界数据集。令人惊讶的是,我们发现较低的容量模型可能与现实世界数据集中的更高容量模型几乎更有用,具有高比例的错误标记数据。例如,在具有校正标签的ImageNet上:Reset-18优于Reset-50,如果最初错误标记的测试示例的普及仅增加6%。在具有校正标签的CiFar-10上:VGG-11优于VGG-19,如果最初错误标记的测试示例的患病率达到5%。在HTTPS://labelerrors.com上查看10个数据集中的测试集错误,HTTPS://github.com/cleanlab/labelors可以再现所有标签错误。
translated by 谷歌翻译
We identify obfuscated gradients, a kind of gradient masking, as a phenomenon that leads to a false sense of security in defenses against adversarial examples. While defenses that cause obfuscated gradients appear to defeat iterative optimizationbased attacks, we find defenses relying on this effect can be circumvented. We describe characteristic behaviors of defenses exhibiting the effect, and for each of the three types of obfuscated gradients we discover, we develop attack techniques to overcome it. In a case study, examining noncertified white-box-secure defenses at ICLR 2018, we find obfuscated gradients are a common occurrence, with 7 of 9 defenses relying on obfuscated gradients. Our new attacks successfully circumvent 6 completely, and 1 partially, in the original threat model each paper considers.
translated by 谷歌翻译
Standard methods for generating adversarial examples for neural networks do not consistently fool neural network classifiers in the physical world due to a combination of viewpoint shifts, camera noise, and other natural transformations, limiting their relevance to real-world systems. We demonstrate the existence of robust 3D adversarial objects, and we present the first algorithm for synthesizing examples that are adversarial over a chosen distribution of transformations. We synthesize two-dimensional adversarial images that are robust to noise, distortion, and affine transformation. We apply our algorithm to complex three-dimensional objects, using 3D-printing to manufacture the first physical adversarial objects. Our results demonstrate the existence of 3D adversarial objects in the physical world.
translated by 谷歌翻译
样式是自然语言文本的重要组成部分,反映了文本语调的变化,同时保持基础信息相同。即使编程语言具有严格的语法规则,它们也具有风格。代码可以使用相同的功能编写,但使用不同的语言功能。但是,编程样式很难量化,因此,作为这项工作的一部分,我们定义了专门针对Python的样式属性。为了构建样式的定义,我们利用层次聚类来捕获样式定义,而无需指定转换。除了定义样式外,我们还探索了预训练的代码语言模型的功能,以捕获有关代码样式的信息。为此,我们微调了预训练的代码语言模型,并在代码样式转移任务中评估了其性能。
translated by 谷歌翻译
许多测量机器人和动态障碍状态的商品传感器具有非高斯噪声特征。然而,许多当前的方法将运动和感知的潜在不确定性视为高斯,主要是为了确保计算障碍。另一方面,与非高斯不确定性一起工作的现有计划者不会阐明运动和感知噪声的分布特征,例如偏见以避免有效碰撞。本文通过将避免反应性碰撞解释为碰撞约束违规与Dirac Delta分布之间的分配匹配问题来填补这一空白。为了确保策划者的快速反应性,我们将每个分布嵌入重现Hilbert空间,并将分布匹配重新匹配,以最大程度地减少两个分布之间的最大平均差异(MMD)。我们表明,评估给定对照输入的MMD归结为仅矩阵矩阵产品。我们利用这种见解来开发一种简单的控制抽样方法,以避免动态和不确定的障碍。我们在两个方面推进了最新的。首先,我们进行了广泛的实证研究,以表明我们的计划者可以从样本级别的信息中推断出分布偏差。因此,它使用此见解来指导机器人良好的同型。我们还强调了基本不确定性的高斯近似如何失去偏置估计值,并引导机器人以高碰撞概率为不利状态。其次,我们显示了与以前的非参数和高斯近似反应性碰撞避免碰撞的碰撞方法的拟议分布匹配方法的切实比较优势。
translated by 谷歌翻译
我们提出了一个公平的衡量标准,以放松流行的平等赔率公平制度中的平等条件。我们设计了一种迭代,模型,基于网格的启发式启发式,该启发式校准了每个敏感属性值的结果以符合度量。该启发式旨在处理高Arity属性值,并执行跨不同受保护属性值的结果的每个属性消毒。我们还将启发式方法扩展到多个属性。强调了我们激励的应用,欺诈检测,我们表明所提出的启发式能够在单个受保护的属性,多个受保护的属性的多个值中实现公平性。与当前关注两组的公平技术相比,我们在几个公共数据集中实现了可比的性能。
translated by 谷歌翻译
最近的各向同性网络,例如Convmixer和Vision Transformers,在视觉识别任务中发现了巨大的成功,匹配或胜过非方向性卷积神经网络(CNNS)。各向同性架构特别适合跨层重量共享,这是一种有效的神经网络压缩技术。在本文中,我们对各向同性网络中共享参数的方法(SPIN)进行了经验评估。我们提出了一个框架,以形式化重量分享设计决策并对此设计空间进行全面的经验评估。在我们的实验结果的指导下,我们提出了一种重量共享策略,以与仅传统缩放方法相比,在拖放和参数与准确性方面,产生一个具有更好总体效率的模型家族,例如,将Convmixer压缩为1.9倍,同时提高准确性的准确性成像网。最后,我们进行定性研究,以进一步了解各向同性体系结构中的重量共享的行为。该代码可在https://github.com/apple/ml-pin上找到。
translated by 谷歌翻译
Top-$ k $分类是对信息检索,图像分类和其他极端分类设置中广泛使用的多类分类的概括。已经提出了几种类似铰链的(分段线性)替代物,但所有这些都不是不一致的或不一致的。对于提出的凸状替代物(即多面体),我们应用了Finocchiaro等人的最新嵌入框架。 (2019; 2022)确定替代物是一致的预测问题。这些问题都可以解释为顶部 - $ K $分类的变体,这可能与某些应用程序更好。我们利用此分析来得出对条件标签分布的限制,在该分布中,这些拟议的替代物在顶级$ k $中变得一致。有人进一步建议,对于顶部$ k $,每个凸铰链样的替代物都必须不一致。但是,我们使用相同的嵌入框架为此问题提供第一个一致的多面体代理。
translated by 谷歌翻译
SIM到现实的转移是机器人增强学习的强大范式。在模拟中训练政策的能力可以以低成本快速探索和大规模数据收集。但是,机器人策略的SIM到现实转移的先前工作通常不涉及任何人类机器人的相互作用,因为准确模拟人类行为是一个空旷的问题。在这项工作中,我们的目标是利用模拟的力量来训练熟练在部署时与人类互动的机器人政策。但是有一个鸡肉和鸡蛋问题 - 我们如何收集人与物理机器人互动的例子,以在模拟中对人类行为进行建模,而没有已经有能够与人相互作用的机器人?我们提出的方法,即迭代-SIM-to-real(I-S2R),试图解决这个问题。 I-S2R引导程序来自一个简单的人类行为模型和在模拟和在现实世界中部署的训练之间的交替。在每次迭代中,人类行为模型和政策都得到了完善。我们在现实世界的机器人乒乓球环境中评估我们的方法,该机器人的目标是尽可能长时间与人类玩家合作。乒乓球是一项高速,充满活力的任务,要求两名球员对彼此的举动迅速做出反应,从而使测试床具有挑战性,以研究人类机器人互动。我们在一个工业机器人手臂上介绍了结果,该机器人能够与人类球员合作打乒乓球,平均获得22次连续击球的集会,充其量只有150个。此外,对于80%的球员来说,与SIM-TO-REAL(S2R)基线相比,拉力长度长70%至175%。有关我们系统中的视频,请参见https://sites.google.com/view/is2r。
translated by 谷歌翻译
在具有连续以对象的状态,连续的动作,长距离和稀疏反馈的机器人环境中,决策是具有挑战性的。诸如任务和运动计划(TAMP)之类的层次结构方法通过将决策分解为两个或更多级别的抽象来解决这些挑战。在给出演示和符号谓词的环境中,先前的工作已经显示了如何通过手动设计的参数化策略来学习符号操作员和神经采样器。我们的主要贡献是一种与操作员和采样器结合使用的参数化策略的方法。这些组件被包装到模块化神经符号技能中,并与搜索 - 然后样本tamp一起测序以解决新任务。在四个机器人域的实验中,我们表明我们的方法 - 具有神经符号技能的双重计划 - 可以解决具有不同初始状态,目标和对象不同的各种任务,表现优于六个基线和消融。视频:https://youtu.be/pbfzp8rpugg代码:https://tinyurl.com/skill-learning
translated by 谷歌翻译